第 2 章 · 预训练（三）-为什么叫预训练

第2章第6节预训练（三）-为什么叫预训练

阅读指南

上一节看到了预训练的代价、数据策略和三个局限。但为什么叫"预"训练?它后面还有什么步骤?本节将揭示完整的训练流程,以及一些有趣的行业故事。

6.1 为什么叫"预"训练?

回到开头的问题:为什么叫"预"训练?

因为它只是一个基础,后面还有很多工作:

完整的训练流程:

1 预训练 (Pre-training)
   ├─ 任务:预测下一个词
   ├─ 数据:3000亿词无标注文本
   ├─ 目标:学习通用语言能力
   └─ 结果:通才,什么都懂一点,但不会做具体任务

2 监督微调 (Supervised Fine-Tuning, SFT)
   ├─ 任务:问答、对话、翻译等
   ├─ 数据:数万条人工标注的高质量问答对
   ├─ 目标:学会做任务
   └─ 结果:会回答问题了,但可能还不够好

3 强化学习对齐 (RLHF)
   ├─ 任务:从人类反馈中学习
   ├─ 数据:人类对模型输出的评分
   ├─ 目标:让回答更符合人类偏好
   └─ 结果:ChatGPT!安全、有帮助、对齐人类价值观

预训练是最重要也是最贵的基础,后面的步骤是精雕细琢。

6.2 趣闻一:谷歌这次没有开源Gemini

谷歌一向以开源闻名于业界——Android操作系统、TensorFlow框架、Transformer架构都是开源的。那么在大模型时代,谷歌为什么不开源它的旗舰模型Gemini(双子座)呢?

其实谷歌用了现在大多数商业公司的策略:旗舰型模型闭源,轻量级模型开源。

Gemini(旗舰模型):
- 对标GPT-4的顶级模型
- 完全闭源
- 只能通过API调用

Gemma(轻量级模型):
- 基于Gemini技术,但参数量小得多(2B、7B)
- 开源

谷歌通过开源Gemma,树立"开源"的旗帜,让开发者社区能够使用和研究其模型。但真正最强大的Gemini,却保持闭源,保护了核心竞争力。

但其实现在开源的好模型也非常多,比如DeepSeek、Qwen系列、LLaMA。所以谷歌的Gemma并没有太大的影响力。

这与Android的策略很相似:谷歌开源Android操作系统,但Google服务(GMS)和核心优化却是闭源的。

所以,当你听到"谷歌开源了大模型"时,要明白:开源的是Gemma(小宝石),不是Gemini(大双子)。

6.3 趣闻二:Common Crawl——互联网的"公共图书馆"

GPT-3的训练数据中60%来自Common Crawl。但你知道这是什么吗?

Common Crawl是一个非营利组织,从2008年开始免费爬取并开放整个互联网的网页数据。它爬取的数据量是惊人的:

自2008年至今已爬取超过250PB的网页
每月新增约30-40TB的数据
包含超过3500亿个网页
完全免费开放给所有研究者

Note

数据来源:Common Crawl官方网站公开数据。

几乎所有大模型都用了Common Crawl的数据:

GPT-3:60%的训练数据
LLaMA:主要数据来源
Gemini:使用了大量Common Crawl
国内的DeepSeek、Qwen也使用了

那么,Common Crawl为什么这么重要?

因为Common Crawl解决了一个根本问题:如果每个研究团队都自己爬取数据,不仅成本高昂,还可能违法(侵犯版权)。而Common Crawl提供了一个合法、标准化的数据集,让小团队也能训练大模型。

Common Crawl的总预算每年只有约200万美元,但它支撑了价值数千亿美元的AI产业。这可能是历史上投资回报率最高的公益项目之一。

6.4 趣闻三:为什么小公司也能训练大模型?

预训练GPT-3需要1200万美元,那为什么还有那么多小公司能推出自己的对话模型?

答案是:他们不需要从头预训练,只需要在开源模型上做微调和对齐。

为什么可以这么做?

因为预训练已经完成了最难、最贵的部分——让模型学会了语言的通用能力:

语言知识已经学会

1750亿个参数里已经"记住"了3000亿个Token的语言规律。

成本已经付出

预训练花了1200万美元,这个成本你不用再付了。

只需微调

微调和对齐只需要数万条数据,成本只是预训练的1%。

这就是为什么Meta开源LLaMA、国内开源DeepSeek,阿里开源Qwen如此重要——降低了大模型的门槛。

计算机领域的程序员将代码开源的行为简直就是"人类之光"。很多程序员开源的目的很单纯,就是为了在GitHub上多获取几个Star,拉满自己的成就感,即使一分钱的收入也没有,也会持续更新代码。

这在其他很多行业是不多见的。如果没有开源,计算机技术的发展不会如此之快。

6.5 下一节预告

现在你已经知道:ChatGPT通过预训练学会了语言规律,能够预测下一个Token。

但这里有个问题:预训练后的模型,只会做一件事——文字接龙。

它不会:

回答你的问题(它只会接着你的话往下说)
遵循你的指令(它不知道什么是"指令")
拒绝不合适的请求(它会根据训练数据生成任何内容)

那么,ChatGPT是如何从一个"文字接龙机器"变成一个"能干活的助手"的?

答案就在下一节:微调。

6.6 ■ 学点英语

中文	English	音标	说明
微调	Fine-Tuning	/faɪn ˈtjuːnɪŋ/	在预训练模型基础上使用少量标注数据做针对性参数调整
开源	Open Source	/ˈoʊpən sɔːrs/	公开源代码和模型权重供社区使用、研究、修改的方式
闭源	Closed Source	/kloʊzd sɔːrs/	不公开核心技术细节，仅通过API提供服务的商业模式
Common Crawl	Common Crawl	/ˈkɒmən krɔːl/	非营利组织运营的免费互联网爬取数据集
两阶段训练范式	Two-Stage Training Paradigm	/tuː steɪdʒ ˈtreɪnɪŋ ˈpærədaɪm/	先预训练后微调的模型开发流程

6.7 ■ 思考帧

◀ 预训练（二）-代价与数据

返回目录

▶ 监督微调（一）-概念与本质

第2章 第6节 预训练（三）-为什么叫预训练